Proyek Astra, Veo, dan Pembaruan Gemini Google: Pertarungan Kemajuan AI
Ini adalah respons Google terhadap OpenAI.
AI umum, AI yang benar-benar dapat digunakan sehari-hari, akan memalukan jika mengadakan konferensi pers jika tidak seperti ini sekarang.
Pada pagi hari tanggal 15 Mei, "Festival Gala Musim Semi Dunia Teknologi" tahunan, Konferensi Pengembang Google I/O secara resmi dimulai. Berapa kali kecerdasan buatan disebutkan dalam keynote utama selama 110 menit? Google telah menghitungnya:
Ya, AI dibicarakan setiap menit.
Kompetisi AI generatif baru-baru ini mencapai klimaks baru, dan konten konferensi I/O ini secara alami berputar di sekitar kecerdasan buatan.
"Setahun yang lalu di panggung ini, kami pertama kali membagikan rencana kami untuk model besar multimodal asli, Gemini. Ini menandai generasi baru I/O," kata CEO Google Sundar Pichai. "Hari ini, kami berharap semua orang dapat memanfaatkan teknologi Gemini. Fitur-fitur groundbreaking ini akan menyusup ke pencarian, gambar, alat produktivitas, sistem Android, dan banyak aspek lainnya."
Saat ini, baik 1.5 Pro maupun 1.5 Flash tersedia untuk pratinjau publik dan menawarkan jendela konteks 1 juta token di Google AI Studio dan Vertex AI. Sekarang, 1.5 Pro juga menyediakan jendela konteks 2 juta token untuk pengembang yang menggunakan API dan pelanggan Google Cloud melalui daftar tunggu.
Selain itu, Gemini Nano telah diperluas dari input teks murni ke input gambar. Nanti tahun ini, dimulai dengan Pixel, Google akan meluncurkan Gemini Nano multimodal. Ini berarti bahwa pengguna seluler tidak hanya dapat memproses input teks tetapi juga memahami lebih banyak informasi kontekstual, seperti visual, suara, dan bahasa yang diucapkan.
Keluarga Gemini menyambut anggota baru: Gemini 1.5 Flash
1.5 Flash yang baru telah dioptimalkan untuk kecepatan dan efisiensi.
Model Besar Open Source Generasi Baru Gemma 2
Hari ini, Google juga merilis serangkaian pembaruan untuk model besar open source Gemma - Gemma 2 telah hadir.
Seperti yang diperkenalkan, Gemma 2 memanfaatkan arsitektur baru yang bertujuan untuk mencapai kinerja dan efisiensi yang revolusioner, parameter model open sourced baru adalah 27B.
Ketika berbicara tentang video panjang, Veo dapat menghasilkan video selama 60 detik atau bahkan lebih lama. Ini dapat dilakukan melalui satu prompt atau dengan memberikan serangkaian prompt yang bersama-sama menceritakan sebuah cerita. Ini adalah kunci untuk aplikasi model generasi video dalam produksi film dan televisi.
Veo didasarkan pada pekerjaan Google dalam generasi konten visual, termasuk Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere, dan lainnya.